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异 构 环境 下 纠 删 码 的 数据 修复 方法 综述 
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(华东 交通 大 学 软件 学 院 ， 南 昌 330013) 


摘 X. 在 大 规模 云 存 储 系统 中 ， 由 于 磁盘 或 网 络 故 障 造成 的 存储 节点 失效 事件 频 发 ， 系 统 需要 数据 宛 余 技术 以 保证 
数据 的 可 靠 性 和 可 用 性 。 目 前 针对 纠 删 码 的 宛 余数 据 修 复 研 究 大 都 无 差别 地 对 待 每 个 存储 节点 ， 然 而 实际 分 布 式 存储 
系统 中 ， 节 点 通常 存在 带宽 资源 、 计 算 资 源 、 存 储 容量 资源 等 方面 的 差异 性 ， 这 些 资 源 的 异 构 性 对 宛 余 数据 修复 性 能 


影响 很 大 。 指 出 影响 修复 性 能 的 关键 因素 ， 选 取 带 宽 开 销 、 磁 盘 访问 开销 、 修 复 时 间 、 参 与 修复 的 节点 数量 和 修复 代 
价 作 为 修复 性 能 的 评价 标准 ; 分 析 了 现 有 研究 方法 如 何 降低 这 五 种 开销 ， 重 点 讨论 了 这 些 方法 的 优 缺点 ; 阐述 当前 异 


构 分 布 式 存储 系统 中 纠 删 码 修复 技术 的 研究 现状 ; 最 后 指出 纠 删 码 数 据 修复 技术 中 尚未 解决 的 一 些 难题 和 未 来 纠 删 码 
修复 技术 可 能 的 发 展 方向 。 
关键 词 : 存储 系统 ; 纠 删 码 ; 异 构 ; 数据 修复 ; 性 能 优化 
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Abstract: In large scale cloud storage system, storage nodes fail frequently because of disk/link failures. In order to preserve 


data's reliability and availability, storage systems need to store redundant data. Compared with data-replication, erasure code 
can provide significant savings in storage space at the cost of extra data recovery overhead. Most of the data recovery 
e a mechanisms for erasure codes think that there is no difference among storage nodes. In the actual distributed storage systems, 
however, there are some heterogeneities in the bandwidth, computing resources and storage capacity of the storage nodes, 
which have a great influence on the redundant data recovery performance. This paper presents data repair operation process in 
erasure code technology under heterogeneous environment, and identifies the key factors that affect the recovery performance. 
ge = Thereafter, this paper chooses bandwidth cost, disk access overhead, repair time, the number of nodes participating in the 
repair and repair cost as the evaluation criterion for the recovery performance. In addition, this paper analyzes how to reduce 
these five costs by the existing research methods, and focuses on the advantages and disadvantages of these methods. Finally, 
this paper indicates Some unsolved problems in the research of erasure code repair method in the current heterogeneous 
storage systems and the possible development direction of the future erasure code repair method. 
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0 al 可 靠 和 高 可 用 。 这 种 方法 不 涉及 专门 的 编码 和 重 构 算 法 ， 容 错 
性 能 较 好 ， 但 存储 利用 率 极 低 。 随 着 数据 的 持续 增长 ， 在 PB 

随 着 存储 系统 中 存储 节点 数目 的 增加 ， 以 及 存储 节点 的 多 ”级 别 的 数据 中 心 ， 多 副本 技术 会 引入 极 大 的 存储 开销 。 比 如 ， 
样 化 和 复杂 化 ， 节 点 常常 发 生 失 效 止 。 为 了 对 抗 因 节点 失效 现 有 的 分 布 式 存 储 系统 ， 如 HDFS (Hadoop distributed file 
造成 的 数据 丢失 ， 分 布 式 存储 系统 需要 保存 一 定量 的 元 余数 据 — system) 叫 、CephBl， 通 常 采用 三 副本 的 方式 ， 这 将 消耗 3 f 
来 保证 系统 中 存储 数据 的 可 靠 性 和 可 用 性 。 产 生 元 余数 据 的 技 ” 原文 件 大 小 的 存储 空间 。 
术 有 副本 和 纠 删 码 两 种 。 副 本 技术 是 把 数据 复制 多 个 副本 分 别 面 对 这 种 情况 ， 纠 删 码 技术 因 具 有 存储 开销 低 的 优势 被 广 
存储 起 来 ， 当 某 个 副本 所 在 的 存储 节点 出 现 故障 时 ， 分 布 式 存 ZAH. IH, RS 编码 (Reed-Solomon code) 四 是 目前 ,广泛 
储 系统 能 够 自动 将 服务 切换 到 其 他 的 副本 ， 从 而 实现 数据 的 高 ”使 用 的 纠 删 码 方案 ， 其 编码 过 程 是 将 上 个 数据 块 按照 一 定 的 编 
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码 规则 生成 m 个 校 验 块 ， 对 于 这 kem 个 编码 块 ， 


保证 通过 任意 的 个 编码 块 均 能 重建 原 
码 为 例 ， 将 原文 件 分 为 k-2 部 分 ， 然 后 
成 m=2 个 校 验 块 ， 容 错 能 力 为 2， 数 提 


意 2 个 节点 重建 原始 文件 ， 此 编码 方式 
大 小 的 存储 空间 ， 就 具 


有 与 三 副本 技术 相同 上 


纠 删 码 技术 虽然 具有 存储 开销 低 的 优势 ， 但 存在 修复 成 本 


较 高 的 缺陷 。 当 某 人 


节点 失效 时 ， 为 了 保持 系统 的 元 余 度 ， 系 


统 需要 修复 失效 节点 上 的 数据 块 并 将 其 


上 。 修 复 一 个 数据 块 时 ， 副 本 方式 通过 


的 数据 完成 数据 修复 ， 纠 删 码 方式 需要 从 其 
别 下 载 一 个 数据 块 才能 修复 出 丢失 的 数据 块 。 


络 带宽 开销 较 大 和 时 
务 器 和 网 络 的 错误 
Facebook 数据 中 心 的 一 个 使 用 (10,4)RS 
点 故障 情况 。 被 监测 的 集群 里 包含 J 
节点 上 存储 15 


闻 较 长 。 在 大 规模 集群 
已 经 成 为 常态 。Rashmi 等 人 6 


纠 删 码 


他 们 的 监测 结果 ， 


点 数量 就 超过 20 个 ， 而 一 天 内 失效 的 数量 


环境 下 ， 磁 盘 、 服 


监测 了 
的 大 集群 的 节 


超过 3000 个 节点 ， 每 个 
TB 的 数据 ， 总 共存 储 的 数据 量 有 30 PB 。 根 据 


在 这 样 一 个 集群 里 ， 平 均 每 天 失效 的 存储 节 


其 至 可 高 达 100 


个 。 在 这 种 1 


$ 


针对 纠 


| 码 修复 数据 存在 的 + 


构 场 景 下 无 差别 对 待 每 个 存储 节点 〉 的 开 


青 况 下， 为 了 保证 系统 的 高 可 靠 和 
统 需 要 频繁 进行 修复 操作 ， 这 加 重 了 系统 的 压力 。 
能 缺陷 ， 近 年 来 做 了 许多 同 
E 论 设计 和 工程 实现 


局 可 | 


J, TR 


的 工作 。 执 行 修复 操作 时 无 差别 地 对 待 每 个 存储 节点 ， 把 每 个 


存储 节点 的 带宽 资源 、 
致 的 。 目 前 ， 


计算 能 


究 综述 Co， 文献 [8] 主 要 介绍 当前 
发 展现 状 ， 文 献 [9 主要 关注 编码 方案 、 


数据 修 


资源 和 存储 能 力 资 源 看 成 是 
国内 外 存在 少量 有 关 纠 删 码 数据 修复 技术 的 研 
型 和 常见 的 纠 删 码 技术 的 


复 和 数据 更 新 


等 方面 的 最 新 研究 进展 ， 文 献 [10] 主 要 


EALA 


环境 


读 写 、 传 输 三 方面 对 优化 纠 删 码 修复 性 能 的 关键 技术 进行 了 探 


讨 。 本 文 将 只 聚焦 于 纠 删 码 在 异 构 分 布 式 存 
] 认 为 异 构 分 布 式 存储 系统 对 纠 


复 性 能 优化 问题 ， 我 人 


修复 性 能 的 影响 因素 主要 有 以 下 三 方面 : 


此 本 文 将 异 构 环 境 下 的 数据 修复 方法 


[E SA E 


存储 节点 间 的 带宽 异 
构 、 存 储 节点 计算 能 力 异 构 以 及 存储 节点 的 存储 容量 异 构 ， 因 


f) 新 生 节 点 


。 重 建 丢失 数据 的 节点 。 它 需要 通过 


节点 中 收集 所 需 数据 ， 计 算得 到 丢失 的 数据 。 
g) 瓶颈 带宽 。 修 复 拓扑 中 带宽 最 小 的 链 路 ， 尊 有 颈 
定 了 修复 过 程 所 需 的 时 间 。 


1.2 


修复 性 能 
数据 


9 影响 因素 
ERE BU 


I 个 步 又 : 


| 


a) 供应 节点 


从 本 地 磁盘 读 取 所 需 数据 。 


b) 为 了 减少 数据 传输 量 ， 供 应 节点 对 数据 进行 本 
线性 组 合 后 生成 传输 数据 。 


删 码 数据 修复 性 能 存在 影响 的 
点 间 的 带宽 异 构 、 存 


ux 


A f 
务 器 上 ， 这 些 服务 器 节点 之 间 通 过 网 络 互联 。 
点 是 不 可 靠 的 ， 网 络 也 是 不 可 


c) 供 应 节点 


将 传输 数据 通过 网 络 传输 到 新 生 节 点 。 


d) 新 生 


节点 接收 到 所 有 供应 节点 传 来 的 数据 后 ， 
复出 丢失 数据 。 


通过 分 析 数 


容量 异 构 。 数 据 修复 时 


居 修 复 过 程 ， 在 异 构 分 布 式 存 储 系统 中 


其 编码 性 质 。 元 。 
始 文件 。 以 RS(4,2) 编 b) 校 验 块 。 原 始 数据 块 经 过 编码 运算 得 到 的 结果 。 
按照 RS 码 编码 规则 生 c) 条 带 。 多 个 数据 块 与 其 对 应 的 校 验 块 构 成 的 元 余 集 
昌 收 集 节 点 可 以 选择 任 。 合 ， 如 果 一 定数 目的 编码 块 丢 失 ， 可 以 通过 对 所 在 条 带 中 剩余 
公 需 消耗 1.5 倍 原文 件 ”编码 块 进行 运算 而 重新 生成 。 
和 容错 能 力 。 d) MDS 码 。MDS 码 是 使 用 空间 最 优 的 编码 。 将 原文 件 切 
4173 k k, (,/9MDS 码 可 以 将 这 些 块 编码 为 n 个 编码 块 ， 
个 编码 卖 的 大 小 为 原文 件 的 < ， 且 其 中 任意 个 编码 块 均 可 
放置 在 其 他 正常 的 节点 “以 重 构 出 原文 件 ， 该 性 质 称 为 MDS 性 质 。 满 足 MDS 性 质 的 
式 他 正常 节点 拷贝 相应 编码 均 可 以 称 为 MDS 码 。 
人 Fed e) 供应 节点 。 参 与 数据 修复 的 节点 。 供 应 节点 读 取 本 地 
也 多 个 供应 节点 分 LLL NM Ms. 
数据 后 通过 网 络 传输 给 其 他 节点 来 参与 数据 重建 。 
这 导致 修复 时 网 


从 供应 


带宽 决 


地 随机 


解码 恢 


， 对 纠 


寻 素 主要 有 以 下 三 方面 : 
储 节点 计算 能 力 异 构 以 及 存储 节点 


E 力 的 


E [a] gc nn 


CPU 计算 能 
时 间 的 瓶颈 。 


基于 以 上 分 村 


HX-3S, 


: 构 、 面 向 计算 能 力 异 构 和 面 


开 


法 。 


的 节点 数量 和 修复 代价 5 个 指标 ， 讨 


包括 面 


向 存储 能 力 异 构 的 数据 修复 方 
围绕 修复 带宽 开销 、 磁 盘 访 问 开 销 、 修 复 时 
论 现 有 的 纠 


间 、 参 与 修复 
| 码 数据 修复 


方法 在 这 五 个 指标 上 的 表现 。 最 后 指出 纠 删 码 数据 修复 方法 未 


来 可 能 的 研究 方向 。 
1 基本 概念 与 影响 因素 
1.1 基本 概念 


为 了 便于 理解 ，4 
本 文 出 现 的 相关 概念 给 
a) 数据 块 。 原 始 用 


如 下 说 明 。 


主 往 将 一 个 服务 器 称 为 一 个 节点 ， 下 二 


户 数据 被 系统 划分 形成 的 最 小 编码 单 


对 


| 间 受 到 节点 的 读 写 能 力 、 计 算 能 


存储 节 
的 存储 
力 、 传 


自 。 由 于 大 部 分 分 布 式 系统 都 搭建 在 廉价 的 服 


SER. 
磁盘 性 能 和 网 卡 速度 ] 


匀 有 可 能 成 为 制 


然而 ， 服 务 器 节 
因此 ， 服 务 器 节点 的 


约 修复 


ff， 我 们 认为 存储 节点 间 的 带宽 异 构 、 


Ee 构 和 存储 容量 异 构 是 影响 纠 删 码 
从 这 三 方面 入 手 ， 


攻 复 性 能 的 主要 因 


计算 能 
素 。 因 


E: 
能 的 评价 标准 。 


将 现 有 的 数据 修复 方法 归纳 为 画 


向 带 


Kj 的 修 


EMITE E TE. 
容量 异 


bandwidth) ， 磁 盘 访 问 开销 (disk 10) ， 参 与 修复 


面向 计算 能 力 异 构 的 修复 方法 和 男 
复方 法 ， 并 选取 修复 带宽 开销 


的 


向 存储 
( repair 


节点 数 


(repair degree) ， 修 复 时 间 和 修复 代价 作为 纠 删 码 修复 性 


面向 带宽 异 构 的 修复 方法 


be 


带宽 异 构 是 指 存储 节点 间 的 链 路 带宽 不 总 是 相等 , 文献 


指出 实际 的 分 布 式 存储 系统 中 存储 节点 间 的 链 路 带宽 存在 差异 
有 的 链 路 带宽 高 ， 有 的 链 路 带宽 低 。 由 于 供应 节点 


性 ， 


给 新 生 
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节点 传递 的 数据 量 都 相等 ， 当 每 个 供应 节点 和 新 生 节 点 之 间 链 
路 带宽 不 相同 时 ， 完 成 一 轮 数据 修复 操作 的 时 间 就 由 带宽 最 小 
的 链 路 决定 (节点 间 的 数据 传输 可 以 并 行 )， 因 此 一 个 很 自然 
的 想法 就 是 根据 链 路 带宽 动态 地 调整 每 个 供应 节点 传输 给 新 生 
节点 的 数据 量 ， 使 得 带宽 大 的 链 路 传输 较 多 数据 ， 带 宽 小 的 链 
路 传输 较 少 数据 。 现 有 的 研究 工作 也 都 是 按照 这 个 思路 来 优化 
数据 修复 性 能 。 本 节 介 绍 三 类 带宽 异 构 下 的 数据 修复 策略 ， 包 
括 星 型 拓扑 下 的 弹性 修复 策略 、 树 型 拓扑 下 的 修复 策略 和 基于 
XOR 的 纠 删 码 修 复 技 术 ， 并 分 析 这 些 方法 在 修复 带宽 开销 、 
修复 时 间 、 参 与 修复 的 节点 数量 和 修复 代价 上 的 表现 。 
2.1 星 型 拓扑 下 的 弹性 修复 方法 
基于 星 型 结构 的 串 行 修复 策略 (Star Structure 
Based, SSR) 0 是 指 当 多 个 节点 同时 失效 后 ， 系 统 会 按照 串 行 
的 方式 依次 修复 失效 节点 ， 重 构 多 个 元 余数 据 节 点 ， 恢 复原 有 
见 余 度 。 在 构建 每 个 见 余 数据 节点 时 ， 系 统 会 构建 以 新 生 节 点 
为 中 心 、 提 供 节点 为 边界 的 星 型 结构 ， 所 有 供应 节点 直接 向 新 
生 节 点 传输 数据 。 在 此 结构 中 ， 再 生 时 间 是 由 新 生 节点 与 供应 
节点 之 间 最 慢 的 一 条 带宽 链 路 决定 ， 下 面 介绍 4 种 基于 星 形 修 
复 模型 的 修复 方法 。 
2.1.1 最 大 弹性 选择 的 弹性 修复 

弹性 修复 是 指 在 每 一 轮 修复 中 ， 根 据 可 用 带宽 大 小 动态 地 
决定 相应 的 数据 传输 量 ， 具 体 来 说 就 是 带宽 大 的 链 路 传输 更 多 
数据 量 ， 反 之 ， 则 传输 较 少 数据 量 。Dimakis ATAS ZRR 
再 生 码 数据 修复 过 程 存在 一 个 较 强 的 限制 : 每 个 供应 节点 向 新 
生 节 点 传输 等 量 数据 进行 数据 修复 ， 数 据 收集 节点 (DC 节点 ) 


仅 连接 k 个 节点 ， 并 从 每 个 节点 下 载 BRE 


话 ， 那 些 可 以 使 用 更 多 链 路 的 新 生 节点 或 DC 节点 也 只 能 使 用 
一 部 分 链 路 ， 这 样 可 能 会 浪费 一 些 带宽 高 的 链 路 资源 ， 从 而 可 
能 导致 修复 效率 不 高 。Shah 等 人 05 提 出 弹性 修复 策略 ， 人 允许 
供应 节点 和 DC 节点 充分 利用 可 用 链 路 资源 向 新 生 节点 传输 不 
等 量 数据 。 上 有 具体 来 说 ，DC WAATA ilS m 下载 


uO Su or) ， 满 足 总 下 载 量 不 小 于 M (原文 件 的 大 小 ) 


即 可 ， 同 样 ， 新 生 节 点 从 供应 节点 iS Sh) 接收 
BOS <8，) 数 据 量 ,满足 总 接收 量 大 于 或 等 于 一 个 设 定 参 
数 》 即 可 ， 可 表示 为 下 面 两 个 不 等 式 : 


È 4 2M,0< u; <a (1) 
n 
i5 27,0< f; <a (2) 
"ES 


EI ES E ` To E ^ M 
当 一 个 节点 失效 时 ， 新 生 节 点 选择 任意 个 节点 下 载 天 


数据 量 ， 修 复 带 宽 等 于 原文 件 的 大 小 。 此 修复 模式 可 能 没有 利 
到 一 些 带宽 较 高 的 链 路 ， 如 果 用 弹性 策略 ， 新 生 节 点 可 以 根 
据 可 用 带宽 的 大 小 从 不 同 节点 上 下 载 不 等 量 数据 来 降低 再 生 时 


erm. 


ig] . 
2.1.2. 最 优 节 点 选择 的 修复 方法 


现 有 的 文献 中 关于 降低 再 生 时 间 


是 降低 数据 传输 量 ， 另 外 一 种 是 变换 再 


而 文献 49 认 为 不 同 的 供应 节点 
复 性 能 ， 因 此 对 两 种 情况 : a) 


SPSN 算法 选择 最 优 供应 节点 。 


FPSN 算法 思想 是 固定 d 个 供 
应 节点 ， 选 择 一 个 最 优 新 生 节 点 ， 从 而 形成 一 个 瓶颈 带宽 最 大 


的 方法 通常 是 两 种 ， 一 种 
生 过 程 的 拓扑 结构 ， 然 
参与 修复 数据 过 程 也 会 影响 修 
供应 节点 确定 ， 新 生 节 点 不 确 
XE: b) 供应 节点 和 新 生 节 点 都 不 确定 ， 分 别提 出 了 FPSN 和 


的 修复 拓扑 ，SPSN 算法 思想 是 遍历 所 有 链 路 卉 


应 节点 和 一 个 新 生 节 点 组 成 的 所 有 可 能 


的 修复 


B fed 
看 扑 结构 中 寻找 


最 小 链 路 带宽 最 大 的 修复 拓扑 结构 。 另 外 ， 文 献 对 第 二 种 情况 


设计 了 FLEX 算法 来 计算 每 个 供应 节点 传输 给 新 生 节 点 的 数据 


可 以 减少 58.56%。 


量 。 实 践 证 明 ， 使 用 文献 提出 的 节点 选择 方案 ， 


2.1.3 分 布 式 存储 系统 中 的 下 载 成 本 与 修复 带宽 的 权衡 


由 于 分 布 式 存储 系统 中 不 同类 型 的 存储 节点 存在 带 
的 差异 性 ， 修 复 失 效 数 据 时 ， 新 生 节 点 选择 不 同 供应 节 


U omg og 


一 个 数据 块 的 成 本 开销 也 可 能 不 一 样 ， 即 下 载 成 本 异 构 ， 


Akhlaghi 等 人 07 假设 系统 中 存在 两 种 类 型 


Ca， 相同 下 载 成 本 类 型 的 节点 


成 一 组 


的 下 载 成 本 
， 不 同 组 的 节点 下 载 成 


本 不 同 。 文 献 利 用 信息 流 图 ， 提 出 了 广义 


理论 上 比较 了 广义 最 小 存储 再 4 


(MBR) 的 修复 成 本 和 下 载 成 本 ， 


(MSR) 以 及 广义 最 小 带宽 再 生 码 (GMBR ) 和 


EfJ( GMSR) 


在 某 些 特定 1 


于 RC， 文 献 仅 解决 了 下 载 成 本 和 修复 带宽 权衡 关系 的 问题 ， 


没有 给 出 下 载 成 本 异 构 情 况 下 的 数据 


EJIIS. 


2.1.4 面向 纠 删 码 的 低 成 本 多 节点 失效 修复 方法 


前 面 介绍 的 基于 星 形 修复 方法 都 
修复 问题 ， 对 于 多 节点 失效 修复 问题 没有 提 到 。 在 实 


F 均 修复 时 间 


有 生 码 (GRC), M 
和 最 小 存储 
I 最 小 带宽 再 生 码 


青 况 下 GRC 码 优 


再 生 码 


仅 讨论 了 单个 节点 的 失效 
际 系统 中 


经 常会 发 生 多 节点 失效 的 情况 0859, 郑 等 人 2 提出 了 面向 纠 删 
码 的 低 成 本 多 节点 失效 修复 方法 ， 采 用 串 行 的 修复 方式 依次 完 


成 多 个 失效 节点 的 修复 工作 ， 把 网 络 距离 作为 节点 选择 的 依 


据 。 他 们 认为 网 络 距离 较 短 的 


zs 


节点 之 间 拥 有 更 高 的 章 


c 


z., J 


点 需 满足 其 到 了 个 新 生 节 点 上 


Wy. D 
拥有 更 小 的 带宽 。 上 县 体 修复 过 程 如 下 ， 假 设 r 个 节点 失 
效 ， 在 进行 修复 操作 时 ， 先 选 定 > 个 新 生 节 点 ， 然 后 从 mr 个 
节点 中 选择 大 个 节点 ， 这 大 个 节 
总 网 络 距离 最 短 ， 确 定 供应 节点 后 ， 从 这 些 新 生 节 点 中 选 则 其 


] 


中 的 一 个 节点 作为 中 心 节点 ， 该 节点 同时 与 
应 节点 进行 通信 。 在 确定 中 心 节点 后 ， 上 


其 他 新 生 节 点 和 供 


P 心 节点 从 个 供应 


n 
|J 


点 分 别 接收 T 数 据 量 ,供应 节点 仅 需 传输 一 次 数据 ， 中 心 节点 


就 可 以 完成 上 个 失效 块 的 构建 了 


据 块 存储 在 本 地 ， 并 将 其 余 的 六 1 AA 
1 个 新 生 节 点 。 从 此 修复 过 程 可 以 分 析出 ， 


要 同时 考虑 其 与 供应 节点 和 其 他 新 生 节 点 之 间 的 网 络 距离 。 


[ 作 ， 最 后 将 其 中 对 应 的 一 个 数 
昌 块 分 别 发 送 到 
P 心 节点 的 选择 需 


其 他 r- 
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这 种 通过 基于 网 络 距离 来 选择 供应 节点 和 中 心 节 点 的 方法 


z] 


带宽 的 负担 。 另 外 ， 


E 


传输 方式 组 织 数据 的 计算 和 传输 ， 并 使 用 基于 中 心 节 点 


本 以 提高 节点 之 间 的 可 用 带宽 ， 给 系统 减少 了 测量 节点 之 间 可 


采用 多 线程 的 计算 方式 和 流水 线 的 数据 
的 数据 


修复 方式 同时 修复 多 个 失效 数据 块 ， 极 大 地 减少 了 带宽 开销 。 


22 树 型 拓扑 下 的 修复 方法 


星 形 结构 下 的 修复 方式 较为 简单 ， 缺 点 是 中 心 节 点 同时 承 


受 计算 任务 和 传输 任务 。 为 了 提高 数据 传输 效率 ， 李 钩 等 人 


eiit 


过 程 中 使 / 


JR] RET 


一 个 新 的 传输 拓扑 -- 树 形 拓扑 ， 用 以 蔡 换 当前 修复 


卜 ， 从 而 达到 提高 数据 修复 过 程 中 数据 传 


输 速度 的 目的 。 为 了 最 大 化 利用 网 络 链 路 资源 ， 他 们 将 树 型 拓 


扑 的 链 路 选 


取 建 模 为 图 论 中 的 瓶颈 生成 树 问 题 ， 


并 提出 了 相应 


的 最 
的 情况 ， 即 
的 树 形 修复 问题 ， 
同 的 情况 。 下 面 用 
他 们 工作 的 优 缺 点 。 


人 算法 解决 该 问题 。 他 们 首先 考虑 的 是 供应 
型 的 MDS 码 。 随 后 ， 他 们 继续 考虑 了 MSR 码 
以 及 建立 多 棵 树 并 行 来 解决 双向 链 路 带宽 不 
三 个 小 节 分 别 介绍 李 钧 等 人 的 工作 ， 


节点 数量 为 k 


讨论 


2.2.1 对 称 链 路 单 颗 树 的 再 生 过 程 


引 生 树 ， 每 条 链 路 传输 
二 数据 量 ， 并 且 多 许 中 间 节 点 提前 对 数据 块 进行 编码 。 通 过 
氏 修复 时 间 开销 的 目 


建立 树 型 传输 路 径 提 高 瓶颈 带宽 ， 达 到 降 


的 。 


李 钩 等 人 提出 的 树 形 修复 方法 ， 可 以 很 好 的 适应 实际 分 布 


在 对 称 网 络 中 ， 节 点 之 间 上 行 和 下 行 的 带宽 相等 称 为 对 称 
链 路 。 为 了 提高 瓶颈 带宽 ， 李 钧 等 人 构造 了 对 称 链 路 单 棵 树 的 
再 生 过 程 ， 使 用 Prim 算法 构造 最 优 甩 


式 存储 系统 中 可 用 带宽 不 
王 艳 等 全 通 过 实验 发 现 ， 
的 针对 MSR 编码 的 树 型 修复 策略 ,在 修复 时 不 能 很 好 的 保证 


修复 时 间 。 然 而 ， 


致 的 场景 ， 大 大 节省 了 存储 系统 的 


李 钩 等 人 提出 


r 


Ed 
-m 
E 


据 完整 性 。 因 为 在 修复 过 程 中 同 


时 改变 修复 拓扑 结构 


不 够 


间 节 点 进行 编码 的 情况 下 ， 会 导致 修复 操作 中 所 传递 的 信 
你 复出 所 丢失 的 数据 。 于 是 ， 王 艳 等 人 通过 分 析 树 形 


EL og T 


的 信息 流 图 ， 得 到 了 修复 操作 中 每 条 边 上 所 需 传输 的 信息 
小 值 。 他 们 不 仅 很 好 的 弥补 了 李 钧 等 人 在 树 形 MSR 编码 上 


m zm xp e 


T 


25Mbps 


(a) 对 称 链 路 网 络 中 的 最 优 再 生 树 


40Mbps 


(b) 非 对 称 链 路 网 络 中 的 再 生 树 


40Mbps 


(c) 非 对 称 链 路 网 络 中 的 最 优 再 生 树 


2.2.3 非 对 称 链 路 多 棵 树 并 行 传输 的 再 生 过 程 


图 1 对 称 / 非 对 称 链 路 网 络 中 的 单 棵 上 


卫生 树 


在 非 对 称 链 路 中 ， 构 造 多 棵 树 


行 传输 能 进 


步 降低 再 生 


时 间 ， 因 此 构造 多 棵 再 生 树 能 使 用 更 多 链 路 带宽 ， 降 低 再 生 时 


间 ， 提 高 再 生效 率 。 例 如 ， 


图 2(a) 为 两 棵 树 


行 再 生 过 程 中 利 


Em 


f AER IRSE, MH 


还 提出 了 一 种 新 的 同样 适用 于 带 上 宽 异 


构 的 分 布 式 存 储 系统 


FP 的 数据 修复 策略 -- 弹 性 修复 策略 。 


2.22 非 称 链 路 单 棵 树 的 再 生 过 程 


T 


在 非 对 称 网 络 中 ， 


节点 之 间 上 行 和 下 行 的 带宽 不 一 致 称 为 


非 对 称 链 路 。 网 络 中 的 链 路 大 部 分 都 是 非 对 称 链 路 ，Lee 等 人 
的 指出 只 有 21.49% 边 可 以 认为 双向 链 路 是 对 称 的。 假如 把 所 
有 链 路 看 成 是 对 称 链 路 ， 例 如 图 1(a) 中 最 优 再 生 树 的 瓶颈 带宽 


是 30 


ZN, 


Mbps。 但 是 如 果 把 链 路 看 成 是 非 对 称 链 路 ， 如 图 1(b) 所 
瓶颈 带宽 仅 能 达到 15 Mbps。 因 此 把 链 路 带宽 看 成 是 非 对 
称 链 路 更 符合 实际 网 络 情况 ， 在 非 对称 网 络 中 构造 最 优 再 生 树 


更 能 


问题 类 似 。 


实地 提高 瓶颈 带宽 ， 
以 达到 20 Mbps。 非 称 链 路 单 棵 树 的 再 生 过 程 与 对 称 链 路 下 的 
修复 过 程 类 似 ， 该 方法 存在 的 问题 与 对 称 链 路 下 的 修复 存在 的 


图 1(c) 中 最 优 再 生 树 的 瓶颈 带宽 可 


时 间 。 另 外 ， 如 果 人 允许 多 棵 再 生 树 中 的 边 共 


到 了 5 条 链 路 ， 相 比 于 单 棵 树 再 生 过 程 ， 进 


例如 ， 图 


流量 ， 那 么 瓶颈 


步 降低 了 再 生 
享 网 络 中 的 链 路 


2(b) 中 两 棵 树 同 时 负责 各 一 半 的 再 9 


是 仍然 存在 类 似 的 问题 。 


带宽 能 提高 到 30 Mbps。 虽 然 多 棵 树 能 充分 利 


可 用 带宽 ， 但 


(a) 非 对 称 链 路 网 络 中 的 两 棵 并 行 再 生 树 
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(b) 非 对 称 链 路 网 络 中 的 两 棵 边 相 交 并 行 再 生 树 

图 2 非 对称 链 路 网 络 中 的 两 棵 再 生 树 

2.2.4 针对 存储 系统 以 纠 删 码 为 编码 方式 的 流水 线 修复 技术 
虽然 系统 使 用 纠 删 码 产生 元 余数 据 提高 了 存储 效率 ， 但 是 
存在 高 修复 成 本 的 缺点 。 有 具体 来 说 ， 修 复 一 个 不 可 用 的 编码 块 
需要 读 取 多 个 可 用 编码 块 。 与 正常 读 取 相 比 ， 读 取 额 外 的 数据 
块 不 仅 增加 了 读 取 时 间 ， 也 消耗 了 其 他 前 台 服 务 器 的 带宽 资 
源 。 因 此 ， 在 实践 中 ， 纠 删 码 方式 主要 用 于 存储 不 经 常 需要 读 
取 的 数据 ， 即 冷 数据 ， 而 经 常 需要 读 取 的 数据 ， 即 热 数据 ， 以 


45Mbps 
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图 3 流水 线 修复 过 程 ,其 中 k=4,s=6 
在 同 构 环境 下 ， 流 水 线 修复 的 修复 时 间 达 到 0() o 
环境 下 ， 如 果 系 统 采用 经 典 Reed Solomon 码 ， 其 修复 时 间 能 
达到 O(k) 。 最 近 提 出 的 PPR 修复 方法 的 修复 时 间 能 达到 
O(log*) 。 在 许多 情况 下 ， 相 比 于 传统 修复 方法 和 PPR 修复 方 
法 ， 流 水 线 修复 单个 块 的 修复 时 间 能 减少 到 80% 到 90%， 提 
高 了 基于 HDFS 和 QFS 部 署 的 系统 修复 性 能 。 
2.2.5 基于 传输 成 本 异 构 的 数据 修复 方法 
传输 成 本 是 指 相 邻 节点 单条 链 路 传输 一 个 元 素 的 成 本 ， 不 
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副本 方式 存储 。 副 本 方式 仅 需要 简单 地 从 其 他 可 用 节点 上 读 取 
相应 的 副本 ， 这 样 可 以 保持 高 效 的 访问 速度 。 为 了 减少 纠 删 码 
的 修复 时 间 ， 许 多 研究 工作 或 者 提出 了 新 的 编码 方案 ， 或 者 设 
计 新 的 修复 方法 ， 虽 然 这 些 方法 有 效 地 减少 了 修复 时 间 ， 但 修 
复 时 间 仍 然 高 于 一 般 的 正常 读 取 时 间 。 
基于 此 ，Li 等 人 上 提出 了 一 种 新 的 流水 线 修复 技术 
(repair pipelining) ， 这 种 新 的 流水 线 修复 技术 可 以 同时 应 用 
在 同 构 环境 下 和 异 构 环境 下 。 他 们 的 做 法 是 把 一 个 失效 块 的 修 
复 过 程 转化 为 若干 个 片 的 修复 过 程 。 县 体 来 说 ， 就 是 把 块 平均 


同 链 路 上 的 传输 成 本 不 总 是 相等 。 另 外 ， 不 同类 型 的 网 络 拓扑 
结构 也 会 影响 总 修复 成 本 ， 进 而 影响 修复 方案 的 选择 。 基 于 
此 ，Akhlaghi 等 人 2 考虑 了 比较 简单 的 场景 ， 假 设 系统 中 有 
两 类 节点 S 和 S>， 每 类 节点 都 对 应 着 不 同 的 通信 代价 Cl 和 
C2。 根 据 再 生 码 要 求 修复 时 新 生 节 点 要 连接 d 个 供应 节点 的 要 
求 ， 假 设 从 通信 代价 为 Ci 的 节点 集合 中 选取 di 个 节点 ， 从 通 
信 代 价 为 C2 的 节点 集合 中 里 选取 d2=d-qdi 个 节点 。 此 时 ， 修 复 
个 新 生 节 点 所 需 的 总 修复 代价 为 Cr 可 以 表示 为 : 
Cr -(Cdp-Co45)B 。 在 此 基础 上 他 们 给 出 了 修复 代价 和 修复 


分 成 个 大 小 相等 的 片 ， 例 如 (14,10)RS 编码 系统 中 ， 设 置 
个 块 的 大 小 为 64 MiB， 流 水 线 修复 失效 块 时 ， 把 失效 块 分 成 
2 048 个 片 ， 每 个 片 大 小 为 32 KiB， 各 个 片 的 修复 过 程 按 流水 
方式 进行 。 修 复 时 间 用 时 间 戳 来 定义 ， 时 间 单 位 用 时 隙 表示 。 


带宽 的 权衡 关系 。 该 方法 的 局 限 性 在 于 ， 系 统 里 只 有 两 类 通信 
代价 的 节点 ， 而 实际 系统 中 通信 代价 可 能 多 种 多 样 ， 另 外 ， 也 
没有 考虑 网 络 拓扑 结构 对 修复 过 程 的 影响 。 李 钩 等 人 考虑 了 网 
络 结构 对 修复 过 程 的 影响 的 影响 ， 提 出 了 再 生 码 的 最 优 树 型 修 


在 同 构 环境 下 ， 利 用 流水 修复 技术 可 以 快速 解决 单个 条 带 


内 一 个 数据 决 的 降级 读 问 题 ， 修 复 时 间 为 1+ 个 时 阶 。 从 


这 个 表达 式 可 以 看 出 ，s 越 大 ， 修 复 时 间 趋 近 于 一 个 时 际 ， 这 
意味 着 降级 读 时 间接 近 正 常 读 时 间 。 不 仅 如 此 ， 流 水 修复 技术 


复 策略 。Gerami 等 人 P71 考虑 了 四 种 典型 的 网 络 模型 ， 捉 行 网 
络 、 星 型 网 络 、 网 格 以 及 全 联通 网 络 ， 提 出 可 用 节点 合作 再 生 
的 方案 SNO 以 减少 修复 成 本 ， 提 出 联合 法 和 分 离 法 优化 以 
修复 成 本 。 联 合法 的 主要 思想 是 构造 修复 成 本 最 小 的 
(n,k,Q,d,B) 再 生 码 ， 且 该 再 生 码 满足 MDS 特性 ， 分 离 法 


n 


[y 


还 解决 了 多 条 带 上 的 修复 问题 。 修 复 不 同 条 带 内 的 块 时 ， 使 用 
贪 禁 调 度 法 给 每 个 节点 增加 一 个 表示 时 间 恰 的 符号 ， 用 来 追踪 
其 最 近 一 次 被 选 为 供应 节点 的 时 间 ， 目 的 是 均衡 各 个 供应 节点 
的 负载 。 图 3 所 示 为 RS(6,4) 编 码 系统 中 修复 一 个 块 的 过 程 ， 
把 失效 块 分 成 6 个 片 ， 表 示 为 S1,S2,.…,Se， 每 3 个 片 为 一 组 ， 
用 Groupl 和 Group2 表示 2 个 组 。 修 复 一 个 数据 块 的 过 程 
中 ， 第 一 阶段 消耗 0.5 个 时 隙 ， 第 二 阶段 每 条 路 径 的 最 后 一 个 
供应 节点 同时 传送 片 至 请 求 者 (R)， 同 样 消耗 0.5 个 时 阶 。 

异 构 环境 下 ， 每 对 节点 的 链 路 带宽 不 一 样 ， 对 于 路 径 的 选 
择 ， 文 献 提 出 了 一 个 带 权 路 径 最 优选 择 算法 ， 该 算法 可 以 在 极 
短 时 间 内 找 出 带宽 最 大 的 一 条 路 径 ， 例 如 ，(14,10)MDS 编码 
系统 ， 用 枚 举 法 搜索 所 有 路 径 找 出 最 优 路 径 平均 需要 27s, 而 


利用 MDS 特性 ， 通 过 分 析 信息 流 图 ， 找 出 可 行 域 ， 把 优化 
复 成 本 问题 转换 为 线性 规划 问题 。 使 用 SNC 方案 修复 失效 
数据 可 以 充分 利用 网 络 的 拓扑 结构 ， 达 到 减少 修复 成 本 的 
的 ， 他 们 研究 的 局 限 性 在 于 ， 他 们 使 用 了 和 典型 再 生 码 一 样 
假设 ， 即 新 生 节点 从 每 个 供应 节点 下 载 的 数据 量 相等 。 

2.8 基于 XOR 的 纠 删 码 修复 方法 

基于 异 或 操作 (XOR) 纠 删 码 的 低 网 络 负载 数据 修复 技术 中 
最 Xiang Liping 等 人 提出 ， 用 于 优化 RDP 码 [29] 修 复 所 传 
输 的 数据 量 ， Khan 等 人 将 其 一 般 化 ， 使 其 适用 于 任何 基于 异 
或 操作 纠 删 码 B9。 基 于 异 或 操作 纠 删 码 的 每 一 个 数据 块 可 以 
看 成 由 多 个 大 小 相等 的 数据 片 组 成 ， 编 码 块 中 的 编码 片 经 过 某 
些 数 据 片 异 或 运算 而 产生 。 下 面 介绍 三 个 基于 异 或 操作 纠 删 码 


mms 


Lir 


录用 稿 


的 数据 修复 技术 ， 分 别 是 提高 降级 


读 性 能 的 EG 算法 修复 策 


略 、 基 于 RAID-6 编码 的 PHR 算法 修复 策略 和 基于 下 载 成 本 
异 构 的 数据 修复 技术 ， 并 分 析 其 性 能 。 


2.3.1 提高 降级 读 性 能 的 EG 算法 修复 


是 指 节点 存储 的 数据 丢失 了 ， 
有 丢失 只 是 暂时 不 能 读 。 对 于 前 


暂时 失效 是 指 节 


方法 


节点 失效 的 类 型 有 两 种 ， 永 久 失 效 和 暂时 失效 ， 永 久 失 效 
点 存储 的 数据 没 
一 种 失效 情况 ， 系 统 进行 失效 


修复 (failure recovery) ， 对 于 后 一 种 ， 系 统 进行 降级 读 


(degrade read) ， 降 级 读 操作 既 要 读 可 上 


的 数据 ， 如 果 需 要 读 不 可 用 数据 时 
恢复 操作 。 使 | 


1249 83 7; SX XE TT d f 


马 的 过 


数据 ， 


也 要 读 不 可 


， 系 统 要 进行 相应 数据 的 


程 可 以 


示 ， 妆 单个 节点 失效 时 ， 可 用 节点 存储 的 编码 甘 
恢复 数据 的 过 程 就 是 计算 相应 解码 子 和 矩阵 


个 编码 子 和 矩阵 表示 ， 
的 过 程 。 


仍然 可 以 用 


用 和 矩阵 来 表 


考虑 到 节点 带宽 的 异 构 性 ，Zhu 等 人 B11 提 


出 了 枚 举 贪 


心算 法 (enumerated greedy algorithm) ， 简 称 EG 算法 ，EG 


Ch InaX VELCERBTI 


WAR, F: 异 构 环境 下 纠 删 码 的 数据 修复 方法 综述 
等 。 采 用 传统 修复 方法 需 读 取 16 个 元 素 ， 而 采用 混合 修复 策 
略 仅 需 读 取 12 个 元 素 , 读 取 量 降低 了 2596. 
Data Disks Parity 
— —PBisks— — 
Disk0 | Diskl | Disk2 | Disk3 (Dr Disk4 Disk5 


图 4 

Niu APIE 
他 们 把 单个 条 带 的 修复 过 程 划分 为 三 阶段 : 
数据 阶段 、 写 入 数 ] 


6 个 磁盘 组 成 的 RDP 编码 系统 ,其 中 p=5 

出 了 RAID-6 编码 系统 中 多 条 带 修复 策略 。 
读数 据 阶 段 、 解 码 
居 阶 段 ， 也 就 是 图 5 所 示 的 单条 带 修 复 过 


v— 算法 遍历 所 有 d 个 可 用 节点 可 能 的 组 合 ， 在 每 一 种 组 合 下 有 1 程 。 利 用 Holland 等 人 B3 所 提出 的 多 线程 技术 ， 同 时 考虑 了 节 
E 个 CDREs， 计 算 每 个 CDREs 的 降级 读 时 间 ， 更 新 降级 读 时 点 异 构 性 ， 提 出 了 并 行 异 构 恢复 算法 Cparallel heterogeneous 
AJ E, 使 每 个 块 的 降级 读 时 间 最 小 。 recovery PHR) ， 该 算法 能 及 时 返回 一 个 最 优 修复 序列 。 使 用 
ES 假定 一 个 (kmw) 纠 删 码 系统 ， 系 统 中 有 n(n=k+m) 个 存储 PHR 算法 修复 单条 带 上 的 失效 数据 时 ， 把 修复 过 程 划分 成 三 
节点 ,上 表示 数据 节点 数量 ，m 表示 校 验 节点 数量 ，w 表示 一 ”个 阶段 ， 这 三 个 阶段 如 下 根据 PHR 算法 返回 的 修复 序列 ， 
cO 个 条 块 中 的 编码 块 数量 。 假 设 了 个 节点 失效 ， 根 据 MDS 特 ”从 可 用 磁盘 上 读 取 相应 的 数据 元 素 或 校 验 元 素 ;解码 己 读 取 元 
e Id e m m ne 个 节点 可 以 得 到 ， 素 得 到 丢失 的 元 素 ; 写 入 已 解码 元 素 到 其 他 磁盘 上 。 这 三 个 阶 
as "T d o 段 按 顺序 进行 。 由 于 各 个 条 带 的 修复 过 程 是 相互 独立 的 ， 因 此 
= N MNA 可 以 借助 多 线程 和 流水 线 技术 同时 执行 修复 操作 ， 也 就 是 说 在 
ON 守成 10<1<xw-D 个 数据 的 降级 读 取 请 求 ， 那 么 需要 用 1 个 修复 不 同 条 带 上 的 失效 数据 时 ， 可 以 并 行 化 PHR 算法 ， 达 到 
a " A" 进一步 降低 再 生 时 间 的 目的 。 图 6 描述 了 多 条 带 修复 过 程 ， 
X A "eoe (T - soem RDW: 分 别 代表 条 带 i 上 的 读 阶段 、 解 码 阶段 和 写 入 阶段 ， 
E EG 算法 能 在 合理 的 时 间 内 找 出 最 优 的 降级 读 序列 ， 其 时 间 复 。 对 于 条 带 i 上 的 读 阶 段 ， 磁 盘 的 数量 等 于 线程 的 数量 ， 每 个 线 
c 杂 度 为 0( 4 pp , 相 比 于 基本 法 (basic approach) ,EG 算法 idi nuk GR E S e E E 
© CPU 的 速度 。 

可 以 减少 降级 读 取 时 间 32.70% 。 sasel Read Dist | 

2.32 基于 RAID-6 编码 的 PHR 算法 修复 方法 - | 

RAID 编码 或 者 叫 宛 余 磁盘 阵列 技术 ， 目 前 已 经 成 为 一 项 
重要 工业 标准 ， 基 于 副本 和 纠 删 编码 的 各 种 RAD 技术 为 海量 T 
数据 的 存储 提供 了 更 高 可 靠 性 保障 。 该 技术 主要 利用 条 带 技术 One stripe 


(并 行 VO RR) 和 元 余 技 术 分 别 使 
存 取 和 恢复 ， 从 而 实现 磁盘 存储 系统 


容量 。 


FERE 
的 高 性 能 、 


存储 系统 对 可 靠 性 
RAID-6 编码 被 提出 了 ， 
RDP 编码 等 。 


中 的 数据 能 并 行 
高 可 靠 性 和 大 


ry Hj 


最 初 磁 盘 阵列 主要 包括 RAIDO 到 RAID5， 随 着 大 规模 
提出 了 更 高 的 要 求 ， 容 错 能 力 为 2 的 


例如 EVENODD 编码 、RS 编码 和 


RAID6 采用 专用 的 双 校 验 磁 盘 (P+O)， 即 行 校 验 磁盘 和 对 


角 校 验 磁盘 。 行 校 验 磁盘 中 的 元 素 由 


Pre tr ee 


运算 得 到 ， 对 角 校 验 磁盘 中 的 元 素 


所 在 对 角 线 


居 元 素 XOR 


上 所 有 元 素 


XOR i 


失效 ， 采 用 不 


司 的 数据 恢复 策略 ， 读 


运算 得 到 。 图 4 所 示 为 RDP 编码 系统 ，p=5。 假 设 Disk0 
取 的 数据 元 素 总 量 也 不 相 


图 5 一 个 条 带 上 的 修复 过 程 


qo 多 条 带 上 的 修复 过 程 

相 比 于 枚 举 法 搜索 最 优 修 复 序 列 ，PHR 算法 搜索 最 优 修 
复 序列 效率 更 高 。 例 如 p=23 时 ， 枚 举 法 搜索 最 优 算法 需 花 
17s， 而 PHR 算法 仅 需 3s。 修 复 多 个 条 带 时 ， 并 行 化 执行 
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china 


录用 稿 


PHR 算法 进 


步 降低 了 修复 时 间 。 


2.3.3 基于 下 载 成 本 异 构 的 数据 修复 技术 
传输 成 本 是 指 一 条 链 路 上 传输 一 个 元 素 的 成 本 ， 节 点 之 间 


带宽 资源 不 同 ， 传 输 成 本 也 不 同 。 基 于 此 ，Zhu 等 人 B9 把 传输 


p 
成 本 和 带宽 资源 联系 起 来 ， 定 义 修复 总 成 本 为 C= 》 wi, 


其 中 假设 节点 失效 ， 
i 表示 从 节点 i 读 交 个 元 素 。 他 们 提出 
恢复 Ccost-based heterogeneous recovery, CHR) 。 


举 所 


缩小 遍 
销 。 


KI 


点 的 带宽 如 医 


区 


所 示 。 假 设 读 取 一 个 


效 。 用 传统 


读 取 6 个 元 素 ,其 总 
法 修复 节点 0 得 到 其 
从 节点 3、4、7 分 另 
个 元 素 ， 从 节点 1、6 分 别 读 
0.7353a(insec); 用 


序列 为 {1010100}， 各 个 节点 传输 的 元 素 如 


从 节点 1、6、7 分 别 读 取 3 个 元 素 ， 从 节点 2、5 
个 元 素 ， 从 节点 3、4 分 别 读 取 4 个 元 素 ， 


图 8 


i=0,i+k 


wi 表示 从 节点 i 读 一 个 元 素 的 成 本 ， 
基于 传输 成 本 的 异 构 


CHR 算法 枚 


可 能 的 最 小 读 取 量 恢复 序列 ， 计 算 这 些 序列 的 总 修复 成 
本 ， 返 回 最 小 总 修复 成 本 对 应 的 修复 序列 。CHR 算法 把 那些 
相反 或 反 向 最 少 读 取 量 恢复 序列 归 为 一 种 最 优 恢复 序列 ， 从 而 
历 空间 ， 减 少 遍历 所 有 读 取 量 最 少 的 恢复 序列 的 计算 开 


7 所 示 为 异 构 环 境 下 RDP 编码 系统 ， 其 中 p=7, 各 个 节 
5 素 的 成 本 为 1， 节 点 0 失 
修复 方法 修复 节点 0，Proxy 从 前 6 个 节点 中 分 别 
载 成 本 是 0.9921a(insec); 用 混合 修复 方 
中 的 一 个 最 优 修 复 序 列 {1110000}，Proxy 
NER 4 个 元 素 ， 从 节点 2、5 分 别 读 取 4 
取 5 个 元 素 ， 其 
CHR 算法 搜索 得 到 的 其 中 一 个 最 优 恢 复 


下 总 载 成 本 是 


所 示 ，Proxy 
分 别 读 取 5 


其 总 成 本 是 


0.5449a(insec) 。 该 方法 比 传统 修复 方法 的 下 载 成 本 少 


40.91%, 


比 混合 修复 方法 的 下 载 成 本 少 25.8996. 
, 
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图 7 异 构 环境 下 RDP 编码 系统 ， 其 中 p=7 


Nodel 


图 8 CHR 算法 修复 方案 


TRUE, 3: 异 构 环 境 下 纠 删 码 的 数据 修复 方法 纤 


ChinaXiv 合 作 期 刊 
境 方法 


在 异 构 环境 下 ，CHR 算法 能 高 效 地 修复 单个 失效 节点 ， 


遍历 效率 、 重 棒 性 效率 


3 


会 造成 其 对 数 扩 


面向 计算 能 


局 的 处 理 


计算 能 力 异 构 。 


在 进行 


取 本 地 数据 ， 


结合 接 


、 人 恢复 效率 


zn 


力 异 构 的 修复 方法 
在 分 布 式 存储 系统 中 ,每 个 存储 节点 


于 自身 的 各 种 因素 
速度 不 一 样 ， 我 们 称 这 种 差异 为 节点 的 
数据 修复 的 过 程 中 ， 非 叶子 节点 需要 读 
收 到 的 数据 进行 编码 ， 将 编码 后 的 结果 


传输 给 上 一 个 


入 点。 


其 中 ， 读 取 本 地 数据 、 编 码 运算 等 操作 的 


N 


处 


里 速度 受制 于 节点 自 


现在 节点 编码 的 时 间 上 ， 节 点 计算 能 力 越 强 ， 人 处 理 
越 快 。HenryBG5 的 调研 表明 磁盘 IO 已 成 为 存储 节点 对 
据 的 读 写 瓶 颈 , 所 以 节点 的 计算 能 力 异 构 对 数据 修复 的 影响 是 
不 可 忽略 的 ， 然 而 却 很 少 有 人 研究 这 方 
一 篇 有 关节 点 计算 能 力 异 构 的 文献 ， 即 分 布 式 存储 再 生 码 数据 
修复 的 节点 选择 方案 ， 并 讨论 其 


天 


此 计算 能 力 异 构 就 体 
数据 的 速度 
本 地 数 


身 的 运算 速度 。 


RUE. F 


面 仅 介绍 


在 修复 带宽 开销 、 修 复 时 间 开 


销 和 参与 修复 的 节点 数量 3 个 方 
分 布 式 存储 再 生 码 数 据 修复 的 节点 选择 方案 


3.1 


面 的 表现 。 


李 钧 等 人 考虑 了 带宽 资源 异 构 对 修复 过 程 的 影响 ， 假 设 节 


点 在 修复 过 程 中 以 流水 
处 的 处 理 时 间 ， 提 出 树 形 修复 策略 以 提高 瓶颈 带宽 ， 从 而 减 
然而 在 实际 的 分 布 式 存 
对 修复 过 程 的 影响 很 大 ， 仅 仅 提 高 瓶颈 带宽 ， 
间 不 一 定 能 减少 修复 时 间 。 齐 凤 林 等 人 Bf 


修复 时 间 。 


算 能 力 异 构 和 带宽 资源 
和 树 型 修复 拓扑 结构 。 


出 了 S-SPA-C 算法 和 了 工 SPA-C 算法 解决 该 问题 。 
EM, 
点 ， 新 生 节 点 对 接收 到 的 数据 进行 编码 并 保存 。 


对 于 星 型 人 


线 方式 并 行 传输 数据 ， 忽 略 数据 在 节点 


少 


嵌 系 统 中 ， 节 点 的 处 理 时 间 
忽略 节点 处 理 时 
同时 考虑 了 节点 计 
异 构 对 数据 修复 过 程 的 影响 ， 建 立 星 型 
对 于 供应 节点 的 选择 问题 ， 他 们 分 别提 


立 节 点 直接 将 数据 传输 给 新 生 
姑 此 整个 修复 


d 


时 间 受 制 于 各 供应 节点 中 时 延 最 长 的 节点 ， 修 复 时 间 可 以 表示 


XJ t = max{T; *Tyg] ， 
表示 从 节点 i 传输 到 新 生 节 点 的 时 间 〈 传 输 时 延 )。 构 造 星 形 


中 T, 表示 节点 i 的 处 理 时 延 , Tp 


修复 结构 的 做 法 是 利用 节点 的 计算 时 延 和 传输 时 延 之 和 大 小 确 


定 供应 节点 ， 


算 能 力 大 小 C, 


ZE 


FFi 


9 为 例 ， 图 中 有 4 个 供应 节点 P1,P2,P3,P4 和 一 个 新 生 节 点 Po, 


rp PSI PT FG icd 
的 传输 时 延 。 


排序 编号 ， 取 前 编号 


其 本 做 法 是 计算 除 失 效 节点 外 -1 个 节点 的 计 
并 结合 传输 量 ,计算 这 些 节点 到 新 生 节 点 的 传输 
时 延 ， 求 得 n-1 个 节点 对 数据 的 处 理 时 间 与 相应 传输 到 新 生 
节点 的 传输 时 延 之 和 了 =7; +Tpio o ET 按照 从 小 到 大 的 顺 


= 


为 12..,d 的 节点 作为 供应 节点 。 以 图 


Wd 


腿 设 新 生 节 点 连接 3 个 节点 修复 失效 数据 ， 通 过 
S-SPA-C 算法 确定 了 PiPsPa 为 供应 节点 ， 修 复 过 程 如 图 10 所 


点 的 处 理 时 间 ， 边 上 的 数据 表示 节点 间 


示 ， 此 轮 修复 时 间 是 7.41。 
对 于 树 型 修复 结构 ， 叶 子 节 点 将 数据 向 其 父 节 点 传输 ， 非 


叶子 节点 从 其 下 级 子 节点 接收 数据 ， 并 结合 其 自身 的 编码 块 纺 
码 后 将 结果 向 上 传输 给 其 父 节点 ， 逐 级 上 传 至 根 节点 (新 生 节 
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点 ) ， 根 节点 接收 到 所 有 数据 后 编码 生成 新 的 编码 块 


保存 。 


构造 树 形 修复 结构 的 做 法 是 利用 最 小 生成 树 原 理 确定 供应 节 
点 ， 先 逐个 计算 节点 从 不 同 链 路 把 数据 传输 到 新 生 节点 所 需 时 


恨 设 取 3 个 节点 作为 供 


新 生 节点 的 路 径 ， 最 终 确定 修复 结构 。 仍 以 


间 ， 然 后 对 所 需 时 间 从 小 到 大 排序 ， 确 定 各 个 节点 传输 数据 给 


图 仍 以 图 


9 为 例 ， 


应 节点 ， 使 用 


输 给 Po, 修 复 过 程 如 图 
间 5.9: 减少 到 5.41. 


图 9 


Pi 


T-SPA-C 算法 得 出 


BREITE 


性 能 。 
EFH) 


李 佳 等 人 


4 考虑 到 了 节点 的 存储 局 
用 码 的 云 文件 系统 数据 放置 方法 ， 根 据 节点 的 实时 负载 


情况 进行 数据 放 


P1,P3,Ps 为 供应 节点 ， 其 中 P3 选择 路 径 P3 Pa Po 将 数据 传 
11 所 示 ， 此 时 ， 


原来 的 总 时 


节点 对 数据 的 处 理 时 间 及 节点 间 的 传输 时 延 


JR] 


11 树 型 拓扑 修复 模型 


这 种 选择 供应 节点 的 方案 在 一 定 程度 上 可 以 加 快 失效 数据 


的 修复 速度 ， 降 低 整 个 数据 修复 过 程 的 时 间 ， 提 升 整个 存储 网 


络 的 性 能 。 


4 面向 存储 异 构 的 修复 方法 


存 
相等 。 
存储 容量 的 变化 对 | 
B748]，Leong 等 人 [4 


点 上 使 得 


Hoch 


式 存储 系统 中 每 个 节点 以 不 同 概率 被 成 功 访问 的 场景 ， 设 计 ] 了 


浅 容 量 异 构 是 指 每 个 存储 节点 上 存储 
目前 已 有 关于 节点 存储 容量 的 研究 主要 


的 数据 量 并 不 总 是 


户 成 功 解码 出 原文 件 概率 的 影响 ， 如 文献 


中 在 考察 节点 


开 究 了 如 何 将 文件 


分 布 到 各 个 存储 节 
户 成 功 获取 文件 的 概率 最 大 。Li 等 人 59 针对 分 布 


一 种 数据 分 布 方法 ， 以 提高 用 户 成 功 获取 文件 的 概率 。 他 们 提 


出 的 是 一 种 分 级 均匀 分 布 上 


的 数据 分 布 方法 ， 夭 


[完全 不 均匀 的 数 


影响 ， 


Lb E, uL 


据 分 布 方法 60 相 比 ， 这 种 分 级 均匀 分 布 的 方法 能 获得 更 好 的 


E BE 2T T4 TE 


变化 对 纠 删 码 数据 


， 提 出 了 


， 实 现 了 系统 的 负载 均衡 并 提高 了 数据 写 入 
和 修复 速度 ， 但 是 没有 进一步 研究 存储 异 构 对 数据 
前 ， 很 少 有 文献 讨论 了 节点 存储 量 
修复 的 影响 ， 下 面 介绍 仅 一 种 存储 容量 异 构 的 数据 
分 析 该 方法 在 修复 带宽 姑 
有 关 存 储 容量 变化 的 文献 。 

文献 [50] 描 述 了 这 样 


修复 性 能 的 


BRRR, 


F 销 上 的 表现 。 另 外 ， 介 绍 了 几 篇 篇 


一 个 存储 系统 ， 系 统 中 存在 一 个 超级 


节点 ， 该 超级 节点 的 存储 量 比 其 


他 节点 大 ， 可 靠 性 和 可 用 性 


也 


比 其 他 节点 高 。 该 文献 针对 (k+2,DMDS 码 和 (k+2, 昌 非 MDS 码 


提出 了 三 种 分 配 存储 方案 ， 超 级 节点 存储 2a 个 块 ,其 他 节点 都 


存储 & 个 块 ， 每 种 存储 方案 下 的 存储 内 容 不 一 样 。 
储 方案 下 ， 文 献 考 虑 了 节点 所 有 可 能 失效 的 情况 ， 对 每 一 种 失 
效 情况 描述 了 修复 过 程 ， 最 后 分 析 了 三 种 存储 方案 方式 下 数据 
的 可 靠 性 。 从 修复 带宽 和 数据 可 靠 性 角度 分 析 ， 修 复 一 个 失效 
比 于 传统 分 配方 式 〈 所 有 节点 的 
献 提 出 的 三 种 分 配方 式 下 的 数据 修复 带宽 能 达到 最 小 带宽 


节点 ， 相 


M(k +1) 
一 一 一 一 ,修复 两 
m 修复 


在 每 种 存 


m M , er 
个 节点 仅 需 地 ,数据 可 靠 性 


年 储量 都 相同 ) ， 文 


EB 提高 了 10%。 


文献 [13] 通 过 分 析 信 


的 权衡 关系 。 
cut) 大 于 原文 


图 12 4 


的 权衡 关系 。 该 


也 们 证 明 ， 如 果 该 信息 ; 
牛 的 大 小 ， 则 存在 线性 
都 可 以 恢复 出 原文 件 ， 如 果 随 机 线性 编码 在 
以 使 得 DC 节点 以 接近 1 的 概率 1 


AAR, RKE 


编码 


存储 量 和 修复 带宽 
加 中 的 最 小 害 
使 得 每 个 DC 节点 


次 复出 原文 件 。 
bb 了 参数 为 n-10, k-5, d-9 f 
线 表 明 单 个 节点 储存 量 


限 域 充分 大 时 可 


的 存储 和 带宽 开销 
o 越 大 ， 修 复 单个 


失效 节点 的 带宽 
系 的 编码 称 为 再 4 
值 点 分 别 对 应 着 两 类 特殊 的 编码 : 最 小 存储 再 


开销 y 就 越 少 。 


Ef (regenerating codes) . 


存储 和 带宽 开销 满足 该 | 


线 关 
线 上 的 两 个 极 


生 码 (minimum 


storage regenerating codes, MSR 人 码 ) 和 最 小 带宽 再 生 码 


(minimum bandwidth regenerating codes, MBR 码 ) ， 它 们 分 
别 对 应 不 同 的 (xy) 值 : 


(QMBR’ " MBR) =( 


MM d 
(CMSR*YMSR) = 


2d M 


k d-k+l 


(3) 


2d 


k 2d-k4 k 2d-k+l 


4) 


repair bandwidth y 


图 12 


0.2 


0.21 


参数 为 n=10,k=5,d=9 的 存储 和 带宽 ] 


0.22 0.23 
storage per node a 


0.24 


开销 的 权衡 曲 


0.26 
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dt 


Dimakis 等 人 得 出 了 单 节 点 修复 模型 下 节点 存储 与 修复 划 


宽 的 理论 界 ,对 于 多 节点 修复 模型 ，Shum ABOE T% 
点 之 间 相 互 合 作 的 模型 ， 并 给 出 此 模型 下 存储 与 带宽 的 理论 
界 ，Zhang 等 人 [3 提出 新 生 节点 之 间 不 再 相互 传输 数据 的 模 
型 ， 比 合作 修复 减少 了 设计 和 运算 的 复杂 性 ， 更 符合 系统 的 实 
际 需要 ， 王 丽 莎 等 人 653 针对 这 种 新 的 修复 模型 ， 利 用 割 原理 
找 出 其 最 小 割 ， 并 用 线性 规划 的 方法 给 出 存储 和 带宽 的 理论 
界 ， 过 程 更 为 简单 ， 在 此 基础 上 ， 给 出 一 些 特殊 参数 下 的 编码 
构造 的 方法 。 李 松涛 等 人 5 针对 数据 存储 成 本 和 带宽 成 本 ， 
提出 了 一 种 称 为 缓存 大 小 自 适 应 确定 (CAROM) 的 新 方案 ， 该 
方案 结合 传统 的 基于 缓存 策略 的 方法 和 纠 错 码 方法 来 提高 系统 
的 修复 效率 。 为 了 实现 缓存 大 小 及 其 效益 间 平 衡 ， 提 出 一 种 基 
于 总 体 成 本 凸 函数 特性 的 弹性 方法 来 实现 缓存 大 小 的 弹性 选 
择 。CAROM 方案 的 存储 成 本 和 带宽 成 本 分 别 比 复制 策略 和 纠 
错 码 策略 下 降 60% 和 43% 。 兼 具 带 宽 成 本 低 、 存 储 成 本 低 等 


特性 。 


SR 
HE 
d 


v=1 


n 
E ^] 
示 为 eG b)-r Èra, C, 。 


他 们 也 考虑 了 通信 代价 对 数据 修复 的 影响 ， 提 出 了 构造 
IFR 码 的 方法 ， 通 过 优化 IFR 码 以 优化 数据 分 配 。 他 介 


] 提 出 的 


是 一 种 非 均 匀 分 布 的 数据 方法 ， 和 完全 均匀 分 布 的 方法 570 相 


比 ， 这 种 非 均匀 分 布 的 方法 能 获得 更 好 的 性 能 。 该 方法 的 局 限 
在 于 ， 构 造 出 来 的 IFR 编码 系统 不 满足 MDS 特性 。 纠 删 码 中 


的 MDS 性 质 是 一 个 比较 好 的 性 质 ， 这 个 性 质 可 以 保证 用 户 最 


大 概率 地 恢复 原文 件 。 如 果 系 统 采 用 FR 码 产生 元 余数 据 ， 


DC 节点 只 能 通过 指定 的 节点 集合 恢复 原文 件 ， 不 能 满足 任意 


性 。 


图 14 给 出 了 构造 FR 和 IER 码 的 例子 ， 对 应 的 参数 都 是 


n=4,k=2,d=2. WRH MDS-FR 码 ， 假 设 原文 们 


E M=4， 经 过 


(6,4)MDS 编码 后 产生 6 个 编码 块 Fi,F2,…,F6e， 并 分 配 到 6 个 节 


AE. ERA 6 个 节点 的 环 


文献 [55] 考 虑 了 比较 简单 的 场景 ， 假 设 系统 中 有 两 类 节点 
Si 和 S2, 每 类 节点 都 对 应 着 不 同 的 存储 成 本 Cl 和 C2， 两 类 节 
点 的 存储 量 分 别 为 m% 和 Q，。 假 定 存储 成 本 为 Ci 的 节点 数 是 
ny, 存储 成 本 为 C2 的 节点 数 是 np»， 此 时 ， 系 统 总 存储 成 本 Cs 可 
以 表示 为 : Cs = Cin91+C2n202 。 修 复 失 效 数据 时 ， 新 生 节 点 
连接 任意 d 个 供应 节点 ， 从 每 个 节点 下 载 6 数据 量 ， 修 复 带宽 
y 可 以 表示 为 : Y= 4d0 。 在 此 基础 上 他 们 给 出 了 存储 成 本 和 修 
复 带 宽 的 权衡 关系 。 该 方法 的 局 限 性 在 于 ， 系 统 中 只 有 两 类 存 
储 成 本 的 节点 ， 而 实际 系统 中 存储 成 本 可 能 多 种 多 样 。 图 13 
是 一 个 基于 MDS 码 的 信息 流 图 。 图 中 显示 的 是 一 个 参数 为 
n-4, k-2, d-3 的 分 布 式 存储 系统 ， 前 两 个 节点 的 存储 成 本 为 
1， 存 储量 都 是 @ ,后 两 个 节点 的 存储 成 本 为 2， 存 储量 为 
Q5. Rit ViVo 是 已 经 失效 的 存储 节点 ，Via 一 Vou 是 新 
加 入 的 存储 节点 Cnewcomer) 。 新 加 入 的 存储 节点 为 了 完成 
数据 修复 ， 需 要 从 系统 中 剩余 的 其 他 d 个 存储 节点 分 别 读 取 B 


数据 量 ， 也 就 是 图 中 标记 的 再 生 流 (regeneration traffic) 。 


图 13 (42)MDS 码 的 信息 流 图 n1=n2=2,d=3,k=2,C1=1,C2=2 
文献 [56] 将 优化 存储 成 本 问题 推广 到 更 一 般 的 场景 ， 他 们 

假设 存储 节点 v 的 存储 量 为 Qy (v=12,n)， 存 储 成 本 为 

sv(V=1,2,.…,n)， 则 存储 一 个 块 的 平均 成 本 (系统 成 本 ) 可 以 表 


P， 相 邻 节点 边 上 的 编码 志 


表示 这 


两 个 节点 存储 的 公共 块 ， 边 上 的 数字 表示 相 邻 节点 相互 通信 的 
通信 成 本 。 如 图 14(a) 所 示 ， 每 个 节点 的 存储 量 都 是 2， 
存储 Fl 和 F6， 节 点 2 存储 Fl 和 F2， 节 点 3 存储 F2 和 F3， 

节点 4 存储 F3 和 F4， 节 点 5 fff FA 和 F5， 节 点 6 存储 F5 
和 F6， 总 存储 成 本 是 34。 任 何 一 个 节点 失效 都 可 以 通过 连接 
其 相 邻 的 两 个 节点 修复 出 相应 的 数据 ， 总 修复 成 本 是 


REH MDS-IFR 码 ， 假 设 原文 件 M=4， 


节点 1 


后 产生 7 个 编码 块 Fi,F2,.…,F7， 每 个 节点 储存 量 如 图 


示 ， 总 存储 成 本 是 33， 总 修 
分 配方 式 能 获得 更 好 的 性 能 ， 


复 成 本 是 22。 由 此 可 见 ， 


36。 如 


经 过 (7,4)MDS 编码 


14(b) 所 
后 者 的 


但 局 限 性 在 于 ， 需 要 用 以 比 3 副 


本 更 高 的 存储 成 本 为 代价 提供 非常 低 的 修复 成 本 。 


(b)IFR 


码 构造 实例 
14 FR 码 和 IFR 码 构造 的 实例 
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BUR RS Gne d.a. B) 纠 删 码 数据 修复 方案 大 多 是 在 固定 o 
和 两 个 参数 的 基础 上 优化 修复 带宽 、 修 复 时 间 、 磁 盘 访 
问 、 参 与 修复 的 节点 数量 和 修复 代价 。 这 一 类 的 研究 工作 涵盖 


了 纠 删 码 的 功能 性 
宽 资源 、 计 算 资 源 以 及 存储 资源 等 对 
实际 情况 是 ， 在 大 规模 的 数据 
原因 不 仅仅 会 导致 数据 丢失 ， 还 会 导致 数据 
点 在 硬件 上 的 不 同 ， 比 如 存储 节点 间 会 


Hop H 


乡 复 和 精确 性 修复 ， 但 没有 考虑 到 系统 中 带 
数据 修复 的 影响 。 然 而 ， 
B, UE MH. TE a 
FERT RC 
b 现 可 用 带宽 、 计 算 能 
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其 单 块 修复 代价 和 总 体 修复 代价 也 最 大 ， 甚 至 高 于 其 它 种 类 纠 
删 码 数 倍 。 相 比 于 传统 MDS 码 ， 分 组 码 LRCs(10,2,4)、 
SHEC(10,6,5) 能 够 以 较 少 的 额外 存储 空间 开销 为 代价 ， 显 著 降 
低 单 块 修复 和 总 体 修复 的 成 本 。 再 生 码 (14,10,13)MBR 在 单 块 
修复 代价 和 总 体 袖 套 代价 上 都 取得 良好 的 表现 ， 但 是 再 生 码 的 
存储 空间 利用 率 明显 低 于 其 它 类 别 纠 删 码 ， 其 存储 空间 利用 率 


力 和 存储 容量 


的 差异 。 
境 下 的 元 余数 据 修复 性 能 
重要 理论 意义 和 实际 意义 。 


选择 和 相应 组 合 系数 
复 技术 面临 的 提 
中 ， 通 过 SIMD 技术 可 以 


过 对 可 


大 


前 ， 存 储 系统 采 月 
复 失 效 数据 是 通 


TDI 


此 研究 优化 分 布 式 存储 编码 在 异 构 环 


的 纠 删 码 大 部 分 是 线性 随机 编码 , 修 


用 数据 进行 线性 


岗 在 计算 、 


现实 对 多 个 数 扩 


日 合 完成 ， 可 用 数据 的 


本 的 纠 删 码 类 型 决定 。 纠 删 码 数据 修 
读 写 和 传输 3 个 方面 。 其 
昌 单 元 同时 执行 相同 的 


BRE, Jnd] 


TAB 


民 域 运 


面 的 挑战 ， 通 过 合 到 


数据 出 现 较 多 重叠 ， 
多 复 ， 另 外 ， 在 不 减少 数 ] 
磁盘 到 数据 修复 过 程 9 
读 写 方面 的 挑战 ， 通 过 
衍生 编码 可 以 在 
性 能 ， 某 些 编码 58- 扩 支持 精 


选择 


使 得 读 ] 


H3, 


宽 开 销 和 供 


的 编 
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DESEE 
读 取 总 


可 以 用 了 


的 编码 计算 速度 ， 同 时 调整 计算 
顺序 ， 避 免 重复 计算 ， 可 以 有 效 地 降低 计算 量 ， 来 应 对 计算 方 
所 使 用 的 条 带 ， 让 修复 所 需要 的 
F 多 个 数据 块 的 
的 情况 下 ， 通 过 引入 更 多 


低 单个 磁盘 
码 设计 
应 节点 开销 等 广 
修复 ， 使 系统 码 〈 支 持 编码 块 


最 高 也 只 能 达到 50% 左 右 。 所 以 ， 那 些 网 络 带宽 成 本 和 存储 
成 本 高 的 系统 ， 比 较 适 合 使 用 此 类 再 生 码 。 
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本 文 分 析 了 影响 纠 删 码 数据 修复 的 因素 ， 从 带宽 资源 、 计 
算 资源 、 存 储 容量 资源 三 方面 对 优化 纠 删 码 修 复 性 能 的 方法 进 
行 了 探讨 。 现 有 的 修复 方法 大 多 没有 考虑 到 存储 节点 存在 带宽 
资源 异 构 、 计 算 资 源 异 构 、 存 储 容量 资源 异 构 情 况 。 

前 对 分 布 式 存储 系统 中 存储 编码 的 研究 大 多 考虑 的 是 同 
构 环境 〈 无 差别 对 待 每 一 个 存储 节点 ) ， 即 分 布 式 系统 中 存储 
节点 的 带宽 资源 、 计 算 资源 、 存 储 资源 都 一 致 ， 但 实际 情况 
是 ， 因 为 地 理 差异 和 磁盘 性 能 的 不 同 ， 会 导致 各 个 节点 硬件 上 
的 不 同 ， 即 便 有 少量 针对 有 异 构 环 境 纠 删 码 数据 修复 的 研究 工作 
也 是 集中 在 带宽 资源 异 构 对 纠 删 码 数据 修复 的 影响 ， 少 有 考虑 
节点 计算 能 力 和 存储 能 力 异 构 对 纠 删 码 数据 修复 的 影响 。 另 
外 ， 目 前 纠 删 码 数据 修复 技术 在 带宽 开销 、 时 间 开 销 等 方面 都 
不 同 程度 地 存在 着 较 大 的 缺陷 ， 难 以 同时 使 得 这 些 目标 都 达到 


上 的 读 取 量 ， 以 应 对 


|» 由 


卫生 码 以 及 其 他 各 种 


中 包含 原 数 据 的 编码 ) 有 可 和 外 
访问 性 能 的 提高 提供 了 技术 基 而 


为 了 全 面 对 比 现 
率 、 单 块 修复 代价 、 总 修复 代价 作为 修复 怕 
种 典型 纠 删 码 的 数据 修复 性 和 
加 入 了 常见 的 三 副本 技术 。 


DA 
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用 在 分 布 式 系统 中 


用 提高 数据 修复 


为 数据 


Hf， 以 应 对 编码 方面 的 挑战 。 


能 ， 表 1 以 空间 利用 
keit 


EE 进行 了 对 比 。 作 为 对 比 ， 表 1 中 


介 标 准 ， 对 6 


表 1 ， 几 种 典型 纠 删 码 与 多 副本 技术 的 数据 修复 性 能 对 比 
空间 利 总 体 修复 代 
纠 删 码 单 块 修复 代价 ES 
X / 96 介 
RS(14,10) 71.40 10.00 14.0 传统 MDS fiu 
LRCs(10,2,4) 62.50 3.75 6.0 
分 组 码 
SHEC(10,6,5) 62.50 5.00 8.00 
(9,5,8)-MSR 55.60 2.00 3.60 
(14,10,13)-MBR 46.70 1.00 1.24 p 
再 生 码 
(14,10)-Hitchhiker- 
71.41 7.64 10.70 
XOR 
三 副本 33.30 1.00 3.00 副本 


从 表 1 可 以 看 出 ， 没 有 哪 一 种 编码 方案 可 以 很 好 地 满足 这 


3 个 指标 ， 传 统 MDS 码 RS(14,10) 存 储 空 间 利 


| 率 最 局 , 但 是 


里 想 的 状态 。 于 是 异 构 分 布 式 系统 在 实际 部 署 中 变 得 非常 有 意 
义 ， 有 关 异 构 分 布 式 系统 的 数据 修复 技术 仍然 停留 在 理论 上 的 
研究 ， 实 际 应 用 仍然 是 一 片 空白 。 我 们 未 来 会 将 最 优 理论 中 的 
一 些 修复 方法 和 图 论 中 一 些 性 质 应 用 到 实际 的 分 布 式 系 统 中 ， 
研究 一 些 特殊 场景 下 编码 后 修复 性 能 增益 的 问题 。 至 于 如 何 
设计 出 各 方面 俱 优 的 纠 删 码 数 据 修复 技术 仍 是 未 来 研究 中 任 重 
道 远 的 问题 。 
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